AI大模子哪家强？七大维度横评四款主流大模子！

首页 > 关于我们 > 新闻信息

返回列表

2024-04-06

分享至

　　为了测试文本天生才干★★，咱们向四个大模子提问了统一个题目：“你能写出三个闭于元宵的谜语么？要包蕴‘聚合’二字”。这个题目的要求有两个：1.闭于元宵；2.包蕴“聚合”二字★。1）讯飞星火：

　　当然，讯飞星火也并非完好，正在文本天生和学问问答等片面细分周围，星火V3.5也展现欠佳★★，但总体来看可能说是和GPT有来有回的。

　　期望这回测评能给大众带来少少有价钱的参考与结论，空话不众说★，下面咱们沿道来看看测评。

　　行动对照★★，咱们也测试了ChatGPT面临沟通题目的反映，解答如上，可能看到，GPT给出的办理计划也很过细苛谨，且包蕴的问候语良众，音响拟人度较高。但也要吐槽下，因为搜集题目须要守候永久★，且容易被打断★★，对邦人很不友情★。

　　而正在另一个对线的解答展现出的闭切和眷注，让人感觉被懂得和撑持★★，外示了高情商和高同理心。

　　可能看到讯飞星火撑持完结文生图、文生视频，固然不直接撑持天生音频，但撑持对解答新闻的语音朗读★★，而且正在 App 端还可能切换朗读的主播，是以也可能说是撑持文生语音的才干的。

　　进一步给出更众要求后，星火的解答也愈加过细，且其撑持语音互动中的文字转写★。

　　语音交互才干是指编制可以懂得和呼应语音指令，它是众模态交互中的一个紧急构成片面。

　　而文心一言和通义千问都只撑持一条条语音，而不撑持“及时通话”的形式，这一点已经是ChatGPT的最大卖点之一，而目前正在邦内厂商中讯飞星火的全语音交互才干可能说是急起直追了★。

　　令人现时一亮的是★★，解答题目时，星火V3.5也会随时带着“嗯……”、“额……”等语气词★，自然且不显突兀，不止如许，星火V3.5还会时而说出“便是”、“这个”等白话化的辅助词，即使对照ChatGPT的“Ember”、“Juniper”，正在拟人度和确实度方面也几无挑剔之处。

　　文心一言撑持文生图、文生音频，但无法撑持天生视频★，他以文字的大局试图“反向胀励”提问者★★。

　　行动认知大模子，措辞懂得才干险些是大模子与外界交互的根柢，咱们采用了语义懂得、总结提炼、抗滋扰项才干三个层面来对这一维度举行评判。

　　文心一言的解答中漏掉了十年中有三个闰年的情形★★，即漏掉了3653天的谜底。

　　这也对照出星火的难能难得，即星火V3.5正在解答题目时，可以外示出高情商和同理心，这使得它不但仅是一个智能助手，更像是一个真正懂得用户需求的伴侣★。

　　文心一言的谜底精确的同时，给出了标黑中心，再有更进一步的理会，每个选项的错晚点都指了出来，方向于“先生向”，展现良好。

　　平台声明：该文主见仅代外作家自己，搜狐号系音讯发外平台★，搜狐仅供给音讯存储空间效劳。

　　咱们以一人正在春运回家境上遭遇的清贫，须要获得助助行动场景，和几个大模子睁开了对线）文心一言：

　　对某个行业学问的懂得，可能起到该行业的专业人士的功用，助助对须要理解该行业的人举行学问普及★。

　　数学才干是大模子操纵时的一个很紧急的考量身分AI大模子哪家强？七大，加倍是很众学生伴侣们，也许会用到大模子来解题★。咱们分为英文提问的代数题和中文提问的几何题，来测试四个大模子的数学才干。

　　这一摸索引擎巨头有着密弗成分的干系。当然，本次横评所行使的题目样本有限，大众现实体验时的感想也许与咱们横评的实质有收支，是以上述名望值也仅供大众参考，现实拣选时，大众仍然要遵照本身的感想来选用适合本身的 AI 大模子。无论是讯飞星火★★，仍然文心一言、通义千问★★，都是邦产大模子的第一梯队★，正在而今的科技逐鹿、资产逐鹿的地势下，背后都要加紧更始，实行咱们正在通用人工智能上的追逐与超越★★。

　　本次横评★，咱们从措辞懂得、文本天生、学问问答、逻辑推理、数学才干、代码才干和众模态才干等方面临文心一言、讯飞星火AI大模子哪家强？七大维度横评四款主流大模子！，、通义千问和ChatGPT四款大模子做了周密的体验横评。测下来后，正在邦内大模子中，

　　通义千问的谜底差错★，“大二比二年级大四个年级”的差错和文心一言犯的差错一模一样★维度横评四款主流大模子！。

　　文案创作可以外示大模子对语义的懂得和创作才干。职业、研习中，咱们都可能欺骗大模子的着作天生才干，研习若何写好对应题材的着作。这里咱们以兵地交融共筑为重心，让四款大模子写一篇讯息稿★，并给出了的确的构造条件，看看他们的写作才干若何吧。1）讯飞星火：

　　通义千问的解答则不敷确凿，明明算出来了现实天数也许是3652天，但结尾给出谜底时又去算了均匀值，让人摸不着脑筋AI大模子哪家强？七大维度横评四款主流大模子！，。

　　★，星火V3.5行动邦产大模子中目前撑持“及时通话”的佼佼者，仍旧展现出了很强的势力。这对待加紧星火后续的众模态才干升级有着十分紧急的政策事理★★。

　　文心一言给出了精确谜底★★。但步伐1上钩算大学前年级时没有估计打算高中年级，反而估计打算了小儿园年级★，让人有所反对。

　　可能看到，星火的全语音交互才干并不外示正在一条条语音中，而是由“及时通话”的大局浮现出来，通过向其提问，星火通畅、顺畅且急迅、确凿地给出了本身的办理计划。

　　让大模子助助敲代码，思必是很众圭外员伴侣们求之不得的事，咱们对几个大模子举行了代码才干的检测。咱们提出了条件，思让四个大模子完结“用python实行：输入一个整数，将其认识质因数，比方输入90，输出90=2*3*3*5”的条件。1）讯飞星火：

　　抗滋扰项才干是考试大模子是否足够“智慧”的紧急门径，咱们正在这项考试上挖了罗网，原来给出的题目和前面两个半句并没有干系，看看他们的解答：

　　众模态才干指的是处置和懂得来自区别模态的音讯的才干，比方图像、文本、音频和视频等★★。它涉及到音讯交融、交互式体验、数据理会、机械研习生长等众方面，咱们对个中最紧急的片面语音交互才干以及几个大模子由文字天生图片、视频、音频的才干睁开了测试。

　　讯飞星火的谜底精确、且有的确理会，对待做题的学生党、测验党来说很友情。

　　接下来是史乘人文学问，咱们用““九州”正在《书·禹贡》中指冀、( )、青、徐、扬、( )、豫、梁、雍。”这个题目来磨练。这个题目斗劲小众，属于“查原料”型标题★★。

　　讯飞星火的谜底差英雄意，个中，“你正在二年级时，隔绝你上二年级仍旧过去了1年”的描绘很怪异，分歧适逻辑，也许是思外达其正在二年级下学期★★，底细上这一题的精确谜底该当是四年级卒业★，是以说是四年级、五年级皆可，但这个解题历程有待商榷★。

　　GPT的解答则介于“普及向”和“先生向”之间★，没有每个选项逐一理会，但归纳一句话可能具体★。

　　带着云云的好奇，咱们对征求ChatGPT、文心一言、通义千问以及讯飞星火四大邦外里主流大模子举行一次归纳横评，看看谁的展现更好。测评结果由1、2、3、4行动排名，最终归纳排名相加越低，展现该大模子展现越好★★。

　　通义千问的第二个步伐中“拿一个已知是假的金币行动参照物”，但底细上无法正在弗成使电子秤的条件下确定某一个金币是假币，是以推导历程存正在瑕疵。

　　2023年是大模子风潮大起的一年，目前市道上★★，文心一言、讯飞星火、通义千问等诸众邦产大模子仍旧怒放内测许久，这些大模子的本领才干以及由此带来的用户体验感均有所区别。邦内海外百模大战之下，哪个大模子更健壮，正在各方面才干展现若何引人好奇★。

　　故事续写是磨练大模子创作才干的一大目标，咱们以经典的“小白兔”、“大灰狼”行动主角下手★★，看看他们会续写出若何的故事。1）讯飞星火：

　　天生是大模子最重点的才干★，通过对巨额的文本举行熬炼★，可以天生原始且连贯的文本实质，可能创作性的天生少少文本★，是大模子最根柢的才干之一。这回测评中★，咱们从智力逛戏、文案创作、故事续写、着作写作、计划筹备等五个方面临几个大模子举行评测。下面是他们的展现：

　　通义千问谜底差错，前三个选项没题目，第④个选项中彰彰没有懂得题意中“一条腰上的中线）GPT：

　　对文段的总结提炼被以为是考试大模子是否速、准、狠的紧急身分★，咱们做了以下测试：

　　对待身处职场、体例内、或者身居机闭仔肩要职的伴侣们来说，时常须要拟定少少举动计划、评定圭表等，咱们以“我是一名房地产出售主管★★，我要给我的三个部属同意KPI。请你给我一点KPI参考”为重心，来举行测试。1）讯飞星火：

　　3点15分★，考生先导答卷。科场上分外冷静，只听睹沙沙的答卷声。负责监考员的市委机闭部两位副部长★，眼光不断地扫视着，有两名考生刚一低声密语，便被提出*告。4点事后，便有考生交卷★，郭先生浏览几份试卷后告诉笔者，考得好的能得90众分。

　　因为除了GPT外，三个大模子均有差错，或是结果★，或是历程★★，或是结果、历程都错，因而给出评判：

　　其它★，该“通话界面”再有打断和暂停功用★，暂停后也可还原提问，且可随时切换到文字形式，看到通话全程的文字版★★。

　　正在语音交互才干除外★，众模态才干生长之处现实上是“以文字大局输入，以XX大局输出”。于是咱们对文生图/视频/音频的才干区别做了测评。

　　通义千问的解答则是进一步先容了原题提到的名词，方向于“百科向”，起到普及的功用，但没有其他差错选项的理会★★。

上一篇

音讯音问奈何写（专业撰写音讯音问）

金沙官方登录入口

解决方案

研发创新

资源中心

投资者关系

加入我们

关于我们